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Возможности и ограничения некоторых алгоритмов дискриминантного анализа в идентификации 
близких видов на примере лесных мышей $у/уаетиѕ (Водепйа, Мигійае). Дзеверин И. И., Лашко- 
ва Е. И. — На примере эмпирических данных об изменчивости лесных мышей и результатов 
численного моделирования обсуждаются проблемы использования дискриминантного анализа 
в построении алгоритмов идентификации близких видов по морфометрическим признакам. 
Как правило, идентифицируемые группы характеризуются разной степенью сходства. Однако 
поэтапное проведение дискриминантного анализа с целью идентификации сначала наиболее 
своеобразных видов, а потом — всех остальных, обычно не содействует улучшению точности 
идентификации. В большинстве случаев дискриминантный анализ целесообразно проводить по 
объединенным данным, не деля выборку на подгруппы. 
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Введение 


В настоящей статье рассматриваются некоторые проблемы применения дискриминантного 
анализа к биологическим данным. В качестве модельной взята хорошо изученная ранее (Лашкова, 
2003; Межжерин и др., 2005) выборка лесных мышей с территории Украины. В выборке представ- 
лены все четыре вида лесных мышей фауны Украины (.5у/уаетиѕ игаіепѕіѕ, 5. ағіапиѕ, 5. ѕуГуаїіісиѕ и 
5. минсиз). Мы остановимся на двух проблемах: критериях выбора более экономной модели и 
возможности проведения дискриминантного анализа в два этапа. 

Лесные мыши $у/уаетиѕ (Койепіа, Мипдае) интересны как модельный объект для апробации 
различных математических методов анализа морфологической изменчивости. Данная группа вклю- 
чает в себя (по разным оценкам) от 7 до 9 морфологически очень похожих видов. Надежную диа- 
гностику этих видов обеспечивают генетические методы. Определение видовой принадлежности по 
морфологическим признакам также возможно, но только при учете большого числа признаков 
одновременно. Поэтому для получения наглядной картины различий лесных мышей в размерах и 
форме черепа, а также оценки степени морфологической дивергенции видов целесообразно исполь- 
зовать методы многомерной статистики, прежде всего дискриминантный анализ (Загороднюк, 
Федорченко, 1993; Лавренченко, Лихнова, 1995; Лашкова, Дзеверин, 2002; Лашкова и др., 2005; 
Кеџќег еї а1., 1999; Уап Оег Ѕігаеѓіеп, Мап Оег Ѕігаеѓїеп-Наггіе, 1977). 
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Задача дискриминантного анализа — отнесение произвольного объекта к одной из нескольких 
априорно заданных совокупностей, например, того или иного организма — к определенному виду. 
Для выполнения этой процедуры возможны самые разнообразные алгоритмы, но именно 
дискриминантный анализ позволяет найти оптимальные критерии идентификации (Дерябин, 1983). 
Именно поэтому данный метод является одной из наиболее употребительных в биологии статисти- 
ческих процедур. Как показал подсчет публикаций в ведущих биологических журналах за 80-е годы 
прошлого века, дискриминантный анализ оказался по частоте использования среди статистических 
методов на втором месте, уступив только анализу главных компонент (Јатеѕ, МеСиПосв, 1990). В 
последующие годы ситуация принципиально не изменилась. Дискриминантный анализ по-прежнему 
остается одним из основных методов в решении задач классификации (построение диагностических 
алгоритмов, ключей и т. п.) и ряда иных проблем биологии. 

Обсуждаемые в статье алгоритмы основаны на использовании линейного дискриминантного 
анализа. Теория и методика применения этого раздела статистики изложены во многих сводках и 
пособиях, как классических (Андерсон, 1963: гл. 6, 12; Кендалл, Стьюарт, 1976: гл. 44), так и более 
современных (Айвазян и др., 1989: разд. 1; Афифи, Эйзен, 1982; Клекка, 1989; Справочник..., 1990: 
гл. 16). Основные принципы дискриминантного анализа детально рассмотрены в работах разного 
уровня сложности, предназначенных специально для биологов (ЛоЙсоеиг, 1959: 284—287, 298—299; 
СатрЬе|, АїсҺеу, 1981; Джефферс, 1981; Дерябин, 1983; Компьютерная..., 1990). Важные аспекты и 
проблемы применения дискриминантного анализа в биологии, особенно в экологических исследо- 
ваниях, обсуждаются в работе Ф. Джеймса и Ч. Мак-Каллоха (Јатеѕ, МсеСиПосв, 1990). 

Все вычисления в нашей статье произведены стандартными методами с помощью компью- 
терной системы анализа данных «ЅТАТІЅТІСА», версия 6 (За ой, шс., 2001, США). Для каждой из 
моделей было определено значение статистики Уилкса (л). Уровни значимости моделей (р) были 
оценены путем аппроксимации этой величины статистикой Фишера (Е) со степенями свободы Ё и 
а. На основе этих моделей были построены классификационные и канонические функции. 
Шаговые алгоритмы выбора признаков в настоящей работе не были использованы: возможности и 
ограничения их применения — это отдельная, весьма актуальная проблема, которой мы здесь не 
касаемся. Модельные выборки для иллюстрации возможностей поэтапного проведения дискрими- 
нантного анализа были сформированы с помощью системы технических вычислений МАТІАВ, 
версия 6 (МаіҺМогкѕ, Іпс., 2001, США). 

Наши рекомендации основаны на опыте применения дискриминантного анализа к конкретным 
наборам данных. Мы не претендуем на аналитическое решение поставленных проблем. 


Канонические переменные 
и классификационные функции 


Современный дискриминантный анализ представляет собой весьма детально 
разработанную систему алгоритмов выявления межгрупповых различий. Класси- 
ческие алгоритмы линейного дискриминантного анализа основаны на исполь- 
зовании одних и тех же исходных данных и содержат одну и ту же информацию. 
Однако эта информация представлена в разном виде, и на практике в разных 
ситуациях предпочтительными оказываются разные варианты анализа. 

Наиболее экономное описание межгрупповых различий дают канонические 
переменные. Так, если исследуются различия между п группами, то вся инфор- 
мация об этих различиях, доступная линейным методам анализа, может быть 
представлена в виде п-1 линейных функций. Эти функции можно рассматривать 
как своего рода признаки, анализировать их, давать им функциональную интер- 
претацию и т. п. В этом отношении канонические переменные вполне аналогич- 
ны главным компонентам. При этом в отличие от главных компонент, канони- 
ческие переменные представляют исходные данные таким образом, что мини- 
мизируют внутригрупповые различия и максимизируют межгрупповые, будучи 
таким образом весьма полезными для содержательной интерпретации тех и 
других различий. 

Так, именно использование дискриминантного анализа в классическом ис- 
следовании П. Жоликёра и его соавторов позволило выявить и количественно 
охарактеризовать особенности строения и функционирования мозга в различных 
отрядах млекопитающих (ЛоЙсоепг еќ а|., 1984). Дискриминантный анализ может 
быть использован для описания географической изменчивости (например, в 
работе ЛоЙсоепг, 1959). Яркий и имеющий отнюдь не только иллюстративное 
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значение пример исследования внутри- и межгрупповой изменчивости в челове- 
ческих популяциях путем применения канонического анализа к антропометри- 
ческим данным приведен В. Е. Дерябиным (1983: 146—149). В целом можно кон- 
статировать, что канонический анализ относится к числу весьма надежных 
инструментов в изучении закономерностей изменчивости. 

В то же время канонические переменные часто неудобны, если нужно опре- 
делить групповую принадлежность произвольного объекта. В общем случае для 
этого нужно определить характеризующие данный объект значения канониче- 
ских переменных (п-1 линейных функций по признакам объекта), а потом 
вычислить расстояния до п групповых центроидов в п-1-мерном пространстве, 
да еще и с поправкой на неравную численность групп (вычисление еще п функ- 
ций; объект считается относящимся к той группе, расстояние до центроида 
которой оказалось наименьшим). Таким образом, для определения групповой 
принадлежности одного объекта нужно проделать 2п-1 весьма сложных расчетов. 
Определение групповой принадлежности по каноническим переменным оказы- 
вается поэтому весьма громоздкой процедурой. Не случайно данный алгоритм не 
реализован программно во многих употребительных компьютерных статистичес- 
ких пакетах, в том числе в ЅТАТІЅТІСА. 

На практике, конечно, можно пренебречь частью канонических переменных 
и использовать только первые 2—3 из них. Это позволяет несколько упростить 
вычисления. И все же наиболее удобной для диагностики объекта представля- 
ется модификация метода, позволяющая построить на основании исходных дан- 
ных набор из п классификационных функций, каждая из которых представляет 
собой оценку принадлежности объекта к определенной группе. Предполагается, 
что объект относится к той группе, значение классификационной функции 
которой оказалось наибольшим. Таким образом, определение групповой принад- 
лежности по классификационным функциям сводится к вычислению только п 
значений, что несомненно более экономно, если принять во внимание следую- 
щее: а) итоговый результат применения обеих методик одинаков; б) вычисление 
одной классификационной функции требует тех же затрат, что и вычисление 
канонической переменной; в) выбор максимального значения из п вариантов не 
представляет никакой сложности; г) (21-1) превосходит п, если п > 1. 

Итак, при определении групповой принадлежности изучаемых объектов 
предпочтительнее работать с классификационными функциями, а не с канони- 
ческими переменными. Важным исключением является, однако, ситуация, когда 
п = 2 (например, при разграничении двух видов или при изучении различия 
между самцами и самками). В этом случае канонический анализ сведется к эле- 
ментарному алгоритму дискриминантного анализа. Для определения групповой 
принадлежности произвольного объекта достаточно знать значение межгруп- 
повой границы и вычислить значение дискриминантной функции. Если оно 
окажется больше значения межгрупповой границы, то объект следует отнести к 
одной группе, если меньше — то к другой. В этом случае использование класси- 
фикационных функций себя не оправдывает. 


Поэтапное проведение дискриминантного анализа 


Весьма часто некоторые из групп, которые являются объектами дискрими- 
нантного анализа, более сходны между собой, чем с другими группами. Так, по 
большинству признаков желтогорлая мышь отличается от лесной, малой и степ- 
ной заметно больше, чем эти три вида друг от друга. Эта давно известная 
особенность отмечена и у лесных мышей с территории Украины (Лашкова, 2003; 
Лашкова и др., 2005; Межжерин, 1993). Разная степень межгруппового сходства 
позволяет строить иерархические классификации (например, методами клас- 
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терного анализа). Отдельная проблема состоит, однако, в том, нужен ли учет 
этой иерархии в алгоритмах дискриминантного анализа. Применительно к 
лесным мышам можно предположить, что целесообразно проводить диагностику 
особей рода, основанную на применении дискриминантного анализа, в два 
этапа. На первом этапе определяется принадлежность особи к одной из двух 
групп: к крупным мышам (5. ѓаигісиѕ) или к мелким (5. ѕу/уайісиѕ, 5. апапиу или 
5. иғаіепѕіѕ). Если особь отнесена к группе мелких лесных мышей, то на втором 
этапе определяется, к какому конкретно из трех видов она относится. 

Первый этап может быть осуществлен с помощью одной дискриминантной 
функции, а второй — с помощью набора из трех классификационных функций 
(см. выше). Таким образом, для определения видовой принадлежности произ- 
вольных особей понадобится вычислить значения в среднем примерно 3,25 функ- 
ций в пересчете на особь, что даже несколько меньше, чем нужно при вычисле- 
нии принадлежности особи к одному из четырех видов в один этап. 

Тем не менее опыт применения этой схемы диагностики к конкретным 
данным по изменчивости лесных мышей показывает, что она почти никогда не 
приводит к лучшим результатам, чем традиционная схема. Как правило, резуль- 
таты определения на первом этапе очень надежные (для некоторых наборов 
признаков — даже 100%-ные), зато качество разграничения трех видов на втором 
этапе остается прежним или становится даже худшим, чем при работе с четырь- 
мя видами. Лишь для отдельных наборов признаков качество диагностики 
незначительно улучшается. Общий выигрыш от применения двухэтапной мето- 
дики, если он вообще наблюдается, не превышает нескольких процентов. Воз- 
можные причины такой ситуации обсуждаются далее. 

Сказанное можно проиллюстрировать конкретным примером: исходная мо- 
дель дана в работе Е. И. Лашковой с соавт. (2005). В этой работе описано опре- 
деление видовой принадлежности взрослых лесных мышей по трем экстерьерным 
признакам (длины хвоста, ступни и уха). Полученная модель статистически 
значима (л = 0,079, Е = 155,20, ай = 9, аР = 757, р < 10-4) и позволяет пра- 
вильно определять видовую принадлежность 93,7% особей. Лучше всего диагно- 
стируются желтогорлые мыши (97,6%), хуже всего — степные мыши (71,4%). 

Если разработать двухэтапный алгоритм определения видовой принадлеж- 
ности лесных мышей по тем же признакам, то дискриминантная функция для 
первого этапа (Л = 0,18, Е = 466,66, а = 3, ар = 315, р < 10-4) позволит 
правильно определять 98,1% особей, в том числе 97,4% мелких мышей и 
98,8% — желтогорлых. Набор классификационных функций для второго этапа 
(А = 0,16; Е = 72,20; а = 6; ар = 290; р < 10-4) позволяет правильно опреде- 
лять 89,3% мышей, в том числе 94,5% 5. иғаІепѕіѕ, 64,3% 5. агіапизѕ, 95,9% 5. 5у1- 
уайсиз. Итоговая (по двум моделям) доля правильно определенных особей — 
92,9%. Таким образом, результаты применения двухэтапной методики оказались 
незначительно худшими, чем при работе с четырьмя группами. Это касается как 
всей совокупности, так и в первую очередь особей 5. айапиз, идентифицировать 
которые (вследствие сходства в размерах как с 5. иға/еиѕіѕ, так и с 5. ѕу/уайсиѕ) 
особенно сложно. Двухэтапная диагностика именно этого вида оказалась наиме- 
нее удачной сравнительно с одноэтапной методикой. 

Качественно сходные результаты дает применение двухэтапной методики и 
в других случаях. В большинстве случаев разделение выборки сразу на четыре 
видовые группы дает лучший результат. Объяснить эту особенность изучаемой 
группы видов можно с помощью схемы (рис. 1). На этой схеме представлены 
результаты дискриминантного анализа отличий между четырьмя условными 
видами, похожими на виды лесных мышей. Обозначены как отдельные особи, 
так и центроиды четырех видовых групп (1—ТУ), а также центроид условной 
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группы, объединяющей первые три вида (У). Как и в реальных выборках лесных 
мышей, вид 4 больше отличается от видов 1, 2 и 3, чем эти последние друг от 
друга. Предполагается также, что вид 3 занимает промежуточное положение 
между 4, с одной стороны, и 1 и 2 — с другой. Для простоты априорные веро- 
ятности принадлежности особей к группам предполагаются равными. Решающее 
правило дискриминантного анализа состоит в том, что произвольная особь 
может быть отнесена к той группе, к центроиду которой она расположена ближе 
всего в пространстве итоговых переменных. Мы видим, что для большинства 
особей это правило выполняется. Кроме того, в большинстве случаев нет разни- 
цы, учитывается расстояние особи до центроида вида І, П или ПІ, или же до 
объединенного центроида У. Если особь первого вида ближе к центроиду І, чем 
к центроиду ТУ, то она ближе и к центроиду У, чем к центроиду ГУ. 

Тем не менее мы видим ряд небезынтересных исключений. В отдельных 
случаях расстояние особи, принадлежащей к виду 3, до центроида [У больше, 
чем расстояние до центроида Ш, но меньше, чем до центроида У. Это, как пра- 
вило, аберрантные особи, резко отличающиеся от типичных представителей 
изучаемых групп (например, особь А на схеме), или, наоборот, промежуточные 
по своим признакам особи (например, особь В). Двухэтапная методика опреде- 
лит видовую принадлежность таких особей ошибочно. Противоположная 
ситуация (расстояние особи одного из трех близких видов до центроида ГУ мень- 
ше, чем до центроида собственного вида, но больше, чем до центроида У; в 
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Рис. 1. Применимость двухэтапной методики дискриминантного анализа к совокупности из четырех 
слабо различающихся групп; 1—4 — особи условных видов: 1-4У — центроиды выборок каждого из 
этих видов; У — центроид группы наиболее сходных видов (1—3); А, В — неправильно классифици- 
руемые особи. 


Ее. 1. Тһе аррИсаб Ку оЁ іуо-ѕѓер їесһпідџе іп іѕсгітіпапі РапсНоп апа]уѕіѕ о ће ѕатріІе сомашше Ше 
ѕресітепѕ гот тг роопу аівегіпе ѕресіеѕ: 1—4 — ѕресітепѕ оЁ тоаеПеа ѕресіеѕ; І—ІУ — ѕатріІе сепігоіаѕ 
ОГ еасһ оҒ #һеѕе ѕресіеѕ; У — сепїігоій оЁ эгоир оѓ е тоѕі ѕітіаг ѕресіеѕ (1—3); А, В — іпсоггесу 
сІаѕѕіћеа зреситепз. 
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идентификации такой особи ошибку допустит уже одноэтапная методика) пред- 
ставляется неправдоподобной. Поэтому за счет части немногочисленных абер- 
рантных и промежуточных особей двухэтапная методика оказывается в общем 
случае менее точной, чем одноэтапная. 

Какую долю общей выборки составят ошибочные определения и как они 
распределятся между видами, — это, конечно, зависит от конкретной выборки и 
конкретного набора признаков. В большинстве случаев точность определения 
двухэтапным методом ниже на несколько процентов. В отдельных выборках, о 
чем уже шла речь выше, применение двухэтапной методики дало тот же или 
непринципиально лучший результат, чем одноэтапной. 

Определенно рекомендовать двухэтапный метод можно, по-видимому, в тех 
случаях, когда вид 4 отличается от 1, 2 и 3 настолько значительно, что ситуация, 
описанная выше, в принципе невозможна (рис. 2). В этом случае определение 
даже аберрантных особей не вызывает никаких проблем, однако в подобных слу- 
чаях, скорее всего, определение легко осуществимо даже без дискриминантного 
анализа. Тем не менее, если по тем или иным причинам для тех признаков, для 
которых выполняется ситуация, проиллюстрированная на рисунке 2, нужно при- 
бегнуть к дискриминантному анализу, то имеет смысл протестировать двухэтап- 
ные модели. 

Применительно к лесным мышам логически возможна еще одна двухэтап- 
ная схема проведения дискриминантного анализа. На первом этапе можно 
разделить выборку на 3 группы, первая из которых включает в себя особей вида 
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Рис. 2. Применимость двухэтапной методики дискриминантного анализа к совокупности из четырех 
групп, одна из которых весьма значительно отличается от остальных: 1—4 — особи условных видов. 
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5. иғаіепѕіѕ, вторая — 5. іаигісиѕ, а третья — особей двух видов, 5. апапиб и 5. 5у[- 
уаїсиѕ. Это объединение можно обосновать, во-первых, большим морфологи- 
ческим сходством двух последних видов, во-вторых, тем, что они парапатричны. 
При необходимости (например, в спорных случаях) на втором этапе можно 
идентифицировать и особей этих видов. Однако такой вариант двухэтапной 
методики неудачен по тем же соображениям, что и вариант, описанный выше. 
Использование такой методики при анализе конкретных данных приводило к 
заметному ухудшению качества моделей практически во всех случаях. 

Таким образом, при построении математических моделей диагностики мор- 
фологически сходных видов по количественным признакам в большинстве слу- 
чаев целесообразно сразу делить изучаемую совокупность на группы, соответ- 
ствующие априорно известным видам. 
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